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Abstract 

Theabsenceoftime series dataon meteorologicalvariablesisadrawbackinenvironmental 
sciences, especially with regard to precipitation, which is a key variable in several fields, 
Now, the present study aimed to compare several statistical and mathematical methods 
to generate missing pluviometric data in the microbasin of the Pita River, such as the 
Paulhus and Kohler method, multiple linear regression (MLR), Wavelet transform and 
artificial neural networks, using information from the hydrometeorological network 
of the Fund for Water Protection (FONAG) of Quito. The artificial neural networks were 
highly effective in generating pluviometric data in the study area, with coefficients of 
determination (R?) higher than 0.64; and root mean squared error (RMSE) lower than 
3.4. In addition, multiple linear regression showed good correlations between real data 
and generated data; however, the insufficient linearity between independent variables 
makes it lose statistical reliability. In contrast, the Paulhus and Kohler method, together 
with the Wavelet transform, proved to be less effective, showing poor correlation and 
high errors in the simulated data. These findings underscore the importance of carefully 
choosing methods for estimating rainfall data in paramo areas to ensure the accuracy 
and reliability of results in water resources management. 
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Resumen 

La ausencia de datos en series temporales de variables meteorológicas es un 
inconveniente en las ciencias ambientales, especialmente en lo que respecta a la 
precipitación, que es una variable clave en varios campos. Ahora bien, el presente 
estudio se propuso comparar varios métodos estadísticos y matemáticos para generar 
datos pluviométricos faltantes en la microcuenca del río Pita, tales como el método 
de Paulhus y Kohler, la regresión lineal múltiple (RLM), la transformada de Wavelet y las 
redes neuronales artificiales; utilizando información de la red hidrometeorológica del 
Fondo para la Protección del Agua (FONAG) de Quito. Las redes neuronales artificiales 
fueron altamente efectivas para generar datos pluviométricos en la zona de estudio, 
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con coeficientes de determinación (R?) superiores a 0.64; y raíces del error cuadrático 
medio menores (RMSE) a 3.4. Además, la regresión lineal múltiple presentó buenas 
correlaciones entre los datos reales y los datos generados. Sin embargo, la insuficiente 
linealidad entre variables independientes hace que se pierda confiabilidad estadística. 
En contraste, el método de Paulhus y Kohler, junto con la transformada de Wavelet, 
demostraron ser menos eficaces, mostrando una correlación deficiente y altos errores en 
los datos simulados. Estos hallazgos subrayan la importancia de elegir cuidadosamente 
los métodos de estimación de datos pluviométricos en zonas de páramo para garantizar 
la precisión y la fiabilidad de los resultados en la gestión de recursos hídricos. 


Palabras clave: precipitación, meteorología, modelo matemático, estadística, recurso hídrico 


INTRODUCCIÓN 


Los fenómenos climáticos influyen en la producción y suministro de recursos para la 
población, por lo tanto, cada país tiene la responsabilidad de supervisar las condiciones 
climáticas y sus cambios para realizar predicciones a corto, mediano y largo plazo 
[1]. Por tal razón, la ausencia de datos en series temporales de distintas variables 
meteorológicas (temperatura, precipitación, humedad relativa, velocidad del viento, 
etc.) es un inconveniente en las ciencias ambientales [2]. Cabe mencionar que algunos 
procedimientos de análisis pueden adaptarse a esta situación, pero otros requieren series 
completas [3]. Problemas comunes asociados con la falta de datos incluyen: la operación 
de estaciones meteorológicas de forma manual, la recopilación de información en 
momentos inoportunos, el mal funcionamiento de sensores automáticos y situaciones 
externas como interrupciones en el suministro eléctrico [4]. Además, la presencia 
de valores atípicos (outliers) puede considerarse como carencia de información en 
algunos estudios ambientales, dado que se descartan al ser tomados como errores 
instrumentales de los equipos de medición; caso contrario, tienen el potencial de afectar 
negativamente los resultados de un modelo numérico [5]. No obstante, es importante 
mencionar que, aunque estos tienen características diferentes al resto de información, 
numerosos estudios los incluyen dado que su eliminación podría resultar en la pérdida 
de información valiosa del fenómeno investigado [6]. 


Dentro de este marco, la precipitación es crucial, tanto en investigaciones hidrogeológicas, 
considerando que constituye el insumo principal para calcular balances hídricos y emitir 
alertas tempranas sobre posibles riesgos de sequía [7], como para la agricultura, en 
estudios de disponibilidad de lluvia para el diseño de mecanismos de recolección para 
lugares donde el acceso al agua es limitado [8]. Asimismo, es fundamental en el análisis de 
eventos extremos dentro del contexto del cambio climático [9]. Esta variable desencadena 
el ciclo hidrológico en la etapa terrestre, presentándose de manera aleatoria en relación 
al tiempo y espacio [10]. Por consiguiente, el análisis de eventos meteorológicos para la 
elaboración de modelos hidrológicos o la planificación de proyectos hidráulicos requieren 
principalmente de datos pluviométricos de alta calidad [111. 


Ahora bien, cerca del 85 % del abastecimiento de agua para el Distrito Metropolitano 
de Quito (DMQ) tiene su origen en los páramos[12] y, una de las zonas más importantes, 
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es la microcuenca del río Pita, reconocida como una de las fuentes hídricas clave para 
la ciudad; su río se integra a la cuenca alta del río Guayllabamba, que a su vez está 
incluida en la cuenca del río Esmeraldas [13]. El río Pita es responsable del 38 % de 
agua potable para el sur y centro de Quito, aportando un caudal de 1.6 m/s a través 
del Sistema Pita-Puengasí. Es el segundo sistema más relevante en la distribución 
de agua potable para el DMO después del sistema Papallacta [14]. En consecuencia, 
resulta necesario establecer estrategias que aborden la carencia de información en 
sistemas hidrológicos, con el fin de estudiar la disponibilidad del recurso hídrico. 


Se emplean distintos enfoques para estimar datos faltantes en series temporales. Entre 
los más comunes de estas metodologías, se encuentran: la regresión lineal, la razón 
normal, la regresión múltiple y los modelos geoestadísticos; sin embargo, según Melo 
et al. [15], estos últimos requieren trabajar sobre semivariogramas, lo que puede llegar 
a aumentar de manera significativa su complejidad. También se utiliza la aplicación 
de redes neuronales para analizar los datos meteorológicos [16], y la transformada de 
avelet, la cual se ha popularizado en las últimas décadas como una herramienta de 
análisis espectral para bases de datos ambientales [17]. En la actualidad, la estimación 
mediante técnicas estadísticas y matemáticas se lleva a cabo utilizando sistemas 
informáticos, lo que facilita el manejo eficiente de grandes conjuntos de datos en un 
iempo reducido y con una menor carga de trabajo humano [18]. 


El objetivo del presente estudio es comparar varios métodos estadísticos y 
matemáticos para generar datos pluviométricos faltantes en la microcuenca del río 
Pita, tales como el método de Paulhus y Kohler, la regresión lineal múltiple (RLM), la 
ransformada de Wavelet y las redes neuronales artificiales, que son los más utilizados 
en las ciencias ambientales y de la tierra, mediante el empleo del software estadístico 
RStudio. Para su ejecución, se utilizó información de las estaciones de la red 
hidrometeorológica del Fondo para la Protección del Agua (FONAG), con el propósito 
de identificar la metodología más adecuada para posteriores investigaciones en 
regiones de páramo con características climáticas similares. En la Tabla 1 se presentan 
algunos trabajos previos que abordan metodologías similares a las propuestas en 
este estudio. Esta pequeña recopilación destaca la relevancia y el interés de las 
metodologías planteadas, subrayando la necesidad de un análisis y el estudio de su 
aplicabilidad en contextos nacionales. 
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Tabla 1. Trabajos previos relacionados con las metodologías aplicadas en la presente investigación 


avances Metodología aplicada Referencia 


ingenierías 
19 


20 
Paulhus y Kohler 21 
[22 
23 
24 
25 


Regresión Lineal Múltiple (RLM) 26 
27 
28 
29 
30 


Transformada de Wavelet 31 
32 
33 


Redes Neuronales Artificiales B6 


METODOLOGÍA 
Área de estudio 


La microcuenca del río Pita está políticamente en tres cantones: el DMO, Mejía y 
Rumiñahui, abarcando mayoritariamente las parroquias de Píntag y Machachi [39]. 
La distribución parroquial del territorio dentro de la microcuenca se detalla de la 
siguiente manera: Píntag abarca el 55.8 %, Machachi un 38.2 %, Rumipamba un 3.2 % y 
Sangolquí el 1.7 % [40]. Los páramos de la vertiente occidental del volcán Sincholagua 
complementados por una fracción de los deshielos del volcán Cotopaxi, constituyen 
las principales fuentes de flujo para el río Pita [41]. La Figura 1 presenta el estado de los 
páramos en la zona alta de la microcuenca, en donde se encuentran los humedales 
de páramo que actúan como las principales fuentes de agua de calidad para la capital. 


4 DOI: https://doi.org/10.18272/aci.v1611.3274 


Artículo/Article 
Sección B/Section B 


Vol. 16, nro. 1 
e3274 


avances 
en ciencias e 
ingenierías 


5 


Evaluación de métodos estadísticos y matemáticos para estimar datos pluviométricos faltantes 
en la microcuenca del río Pita, Pichincha, Ecuador 
Bonilla-Cáceres / Palacios (2024) 


Figura 1. Páramos de la zona alta de la microcuenca del río Pita 


La Tabla2 ofrece un desglose de las coordenadas de las estaciones utilizadas en la investigación, 
incluyendo tanto las estaciones meteorológicas como las pluviométricas. Asimismo, la Figura 2 
ilustra la ubicación específica de estas estaciones en la microcuenca de estudio. 


Tabla 2. Estaciones Red Hidrometeorológica FONAG (Sistema de Referencia EPGS: 4326 — WGS 84) 


Altura 
(msnm) 


Código Tipo Longitud Latitud 


M5028 | Meteorológica | Hcda. Prado Miranda | -78.39071414 | -0.48330906 3526 
M5029 | Meteorológica El Carmen -78.33336768 | -0.50165975 4100 
M5026 | Meteorológica | Cotopaxi Control Norte | -78.44334571 | -0.56382380 3670 
M5076 | Pluviométrica Potrerillos -78.40224661 | -0.61684014 3866 
M5030 | Pluviométrica Heda. Gordillo -78.35721535 | -0.41833358 3 248 
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-78.750 


Microcuenca del Río Pita y 
Estaciones de la Red 
Hidrometeorológica del Fondo 
para la Protección del Agua 
de Quito 


-0.300. 


Leyenda 

(Y Pluviométrica 

(Y) Meteorológica 

—— Hidrología superficial 
(O) Microcuenca río Pita 


-0.450 


-0.600. 


Sistema de Referencia 
EPGS 4326-WGS 84 


Escala 
1300 000 


(OD Micocuenca de estudio 

[A Distrito Metropolitano de Quito 

EE Provincia de Pichincha 

[E Ecuadorcontinenta 
-78.750 


Fuente de datos 
Instituto Geográfico Militar (16M) 
Fondo para la Protección del Agua 
(FONAG) 


-0.750. 


-78.150 


Figura 2. Mapa de microcuenca del río Pita y estaciones de la red hidrometeorológica de FONAG 


Fuente y tratamiento de datos 


Los registros pluviométricos fueron adquiridos de la red hidrometeorológica del 
Fondo para la Protección del Agua (FONAG) de Quito, que son de acceso libre en su 
página web: www.sedc.fonag.org.ec. Estos datos comprenden las precipitaciones mensuales 
acumuladas de cinco estaciones situadas dentro de la microcuenca. Se empleó como 
criterio de selección de estaciones a aquellas que proporcionaran la información más 
completa posible. Por ello, se determinó analizar el periodo entre 2014 y 2023 (10 años), 
durante el cual la ausencia de datos de cada estación no excedió el 5 % (ver Tabla 3). 


Tabla 3. Porcentaje de datos ausentes en información pluviométrica 


Código Tipo pe Datos % Datos 
isponibles faltantes 
M5028 Meteorológica Hcda. Prado Miranda 116 3.33 
M5029 Meteorológica El Carmen 114 5.00 
M5026 Meteorológica Cotopaxi Control Norte 120 0.00 
M5076 Pluviométrica Potrerillos 119 0.83 
M5030 Pluviométrica Hcda. Gordillo 119 0.83 
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Se optó por completar los pocos datos faltantes utilizando la mediana de cada serie 
temporal, debido a que los diferentes conjuntos de datos presentaban una alta dispersión 
en términos de desviación estándar y varianza; esto se evidencia en los diagramas de caja y 
bigotes (Figura 3). Según Das e Imon [42], para conjuntos de datos con una alta dispersión, la 
mediana es menos susceptible a verse afectada por outliers o por alta variabilidad. Luego, 
para simular la generación de datos pluviométricos, se procedió a eliminar aleatoriamente 
el 20 % de los datos. En el estudio de Maharana et al. [43] se menciona que, al trabajar con 
bases de datos que sobrepasen el 20 % de información ausente, los modelos elaborados 
pierden robustez. De este modo, se permitió llevar a cabo la posterior comparación de los 
métodos establecidos sin comprometer la confiabilidad de los resultados. 


Estaciones FONAG 
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l I l | | 
M5026 M5028 M5029 M5030 M5076 


Figura 3. Boxplots de estaciones con información pluviométrica 


En la Figura 4 se presenta un diagrama de flujo que esquematiza de manera general 
la metodología empleada en esta investigación. Este diagrama proporciona una 
visión panorámica de los pasos seguidos durante el desarrollo del estudio, desde 
la recolección y tratamiento de datos, hasta la ejecución, evaluación y análisis de los 
modelos estadísticos y matemáticos. 
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Se descarta 


Completar datos 


con la mediana de 
cada estación 


Figura 4. Proceso global de investigación 


Método de Paulhus y Kohler (1952) 


También llamado método de razón normal, implica estimar el valor incompleto: x(t) 
de una serie, utilizando los datos de estaciones cercanas y simultáneas que muestren 
una fuerte correlación con la serie a completar [44]. Esto se realiza mediante la Ecuación 1. 


x0 =3 [En + 200 + ho] a 


Donde: 


X: media aritmética de datos pluviométricos 


y» X, X,: media aritmética de estaciones vecinas 
¿(0), x,(0),x, (€): datos pluviométricos de series vecinas 


Para su ejecución se utilizó el paquete climatol del software estadístico RStudio donde, 
además de la opción de normalizar los datos dividiéndolos por sus valores medios, 
climatol también brinda la posibilidad de realizar esta normalización restando las medias 
o llevando a cabo una estandarización completa. Por lo tanto, tras denominarm, y s, a la 
media y desviación estándar de una serie X, a continuación se muestran las alternativas 
disponibles para la normalización de datos pluviométricos [45]: 
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+ Restarla media: x=X—m, 
+ Dividir por la media: x= X/m, 
+ Estandarizar: x= (X —m,)/s, 


El principal desafío de este método radica en el desconocimiento de los valores de 
medias aritméticas y de desviaciones estándar de las series durante el periodo de 
estudio, lo que es común en las bases de datos reales. Por lo tanto, climatol aborda 
este problema al calcular inicialmente estos parámetros con los datos disponibles en 
cada serie. Luego, rellena los datos faltantes utilizando estas medias y desviaciones 
estándar provisionales, y vuelve a calcularlos con las series rellenadas. Posteriormente, 
se recalculan los datos inicialmente faltantes utilizando los nuevos parámetros, lo que 
resulta en nuevas medias y desviaciones estándar. Este proceso se repite hasta que 
ninguna media cambie al redondearla con la precisión inicial de los datos [45]. Una vez 
que las medias han sido estabilizadas, se lleva a cabo la normalización de todos los 
datos, seguida de la estimación de los mismos, tanto en las series existentes como en las 
que no están completas, utilizando la Ecuación 2. 
j=n 

a _ *“Sj=1 


IZ w 2) 


W;Xj 


Donde y representa el valor estimado utilizando los n datos x, más cercanos disponibles 
en cada intervalo de tiempo, y w, es el peso asignado a cada uno de ellos. 


Regresión Lineal Múltiple (RLM) 


Hay una variedad de técnicas de regresión que varían dependiendo del tipo de variables 
y de la relación funcional supuesta entre ellas. Las técnicas más básicas, aunque muy 
efectivas en términos de la cantidad de información que pueden proporcionar, son las 
regresiones lineales [46]. La regresión lineal múltiple se construye a partirde una regresión 
lineal simple, la cual se utiliza cuando se tiene más de una variable independiente [47]. En 
este estudio, el modelo de regresión se aplica para datos pluviométricos y se adapta a 
las condiciones y necesidades del análisis, tal como se ilustra en la Ecuación 3. 


y = bo + b,x, + b,x, + ++ byXxg + € 6) 
Donde: 


y: valor de precipitación que se quiere estimar 

Xy, Xy =.., X,: datos pluviométricos de estaciones hidrometeorológicas vecinas 

b,: intercepto o valor de precipitación cuando todas las estaciones tienen valores de O 
b,, b,, ..., b,: coeficientes de regresión 

e: errores aleatorios 


Cuando se tienen n observaciones o filas en el conjunto de datos pluviométricos, se 
obtiene el siguiente modelo: 
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Y1 — bo + D¡X11 + b,X1> + + DxX1k + € 
Ya = bo + biXo4 + D2X22 + + DxX2k + €z 
Y3 = Do + b¡X31 + b2X32 + + DyX3k + €E3 


Yan = bo + DiXn1 + D>Xn2 + «+ DrXnk + En 


Utilizando matrices, se puede representar el sistema de n ecuaciones mediante la Ecuación 4. 


y=Xb+e (4) 
Donde: 
Y1 
Ya 1 Xu M2 “o Yr 
all ze a 
y, 1 Xnmi *Xnz2 “nx 
n 


by €1 
b, € 
Dn En 


En general, y es un vector (n x 1) de datos pluviométricos, X es una matriz (n x p) de 
los niveles de las variables independientes (información pluviométrica de estaciones 
hidrometeorológicas vecinas), b es un vector (p X 1) de los coeficientes de regresión 
y ees un vector (n x 1) de los errores aleatorios. De esta manera, los estimadores de 
mínimos cuadrados se calculan mediante la Ecuación 5. 


L= Y el =ee=(y-Xb(y—Xb) 65) 


El estimador de mínimos cuadrados b es la solución para el vector b (Ecuación 6). 


OL 


ao (6) 


Finalmente, al resolver la ecuación diferencial anterior se obtiene la Ecuación 7, donde se 
determinan los coeficientes de regresión para el modelo. 


de de 7 
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En la regresión lineal múltiple, se utilizan múltiples variables explicativas, lo que posibilita 
el aprovechamiento de una mayor cantidad de información en la construcción del 
modelo y, por consiguiente, la obtención de estimaciones más precisas para completar 
las series pluviométricas. 


Transformada de Wavelet 


El tercer método utilizado corresponde a las transformadas de Wavelet, que son 
herramientas matemáticas que permiten analizar señales de manera similar a la 
transformada de Fourier de tiempo corto, proporcionando información tanto en el 
dominio del tiempo como en el de la frecuencia [48]. Las transformadas de Wavelet 
permiten estudiar características en la serie espacial con un detalle ajustado a su escala, 
es decir, rasgos amplios a gran escala y rasgos finos a pequeña escala. Esta característica 
es Útil para las variaciones espaciales que son significativamente no estacionarias 
y tienen componentes transitorios de corta duración [49]. De esta manera, el análisis 
Wavelet tiene distintas aplicaciones, desde la dinámica de fluidos [50], la geofísica [51] 
y la hidrología [52], como en esta investigación. Las wavelets, fundamentales en la 
transformada wavelet madre, representan una señal mediante versiones desplazadas y 
escaladas de una onda finita que pueden generarse a partir de un conjunto de datos 
experimentales. Esta transformada no solo es local en el dominio del tiempo, sino 
también en el dominio de la frecuencia [53]. Una vez que se tiene una wavelet madre, se 
pueden generar wavelets mediante las operaciones de dilatación y traslación [54]. Para 
números enteros j, k se utiliza la Ecuación 8. 


Pix (0) = 21Pp(2/x —k) (8) 
Resulta que estas ondículas pueden formar un conjunto ortonormal (Ecuación 9). 


< Vir Dj >= | px OP" jo Cd = 6, 18, (9) 


Donde $, =1sim=nmy6, =0sim * n. En este caso <-> es el producto 
interior. Además, ese conjunto de ondículas puede formar bases para varios 
espacios de funciones. Por ejemplo, y más técnicamente, UA CIIAA puede ser 
una base ortonormal completa para L?(IR). Así, dada la función f(x), se procede 
a descomponerla en una serie de Fourier generalizada, como indica la Ecuación 10. 


00 [0.2] 


16) = 2 Y dal) (10) 


Donde, debido a la ortogonalidad de las ondículas, se obtiene la Ecuación 11. 


dix = f FOOY ¡(dx =< f,Yjx > (11) 
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Para enteros j, k, los números didez se denominan coeficientes de wavelet de f, 
generando una función que se asemeja al conjunto de datos ingresados, que en esta 
investigación son las observaciones pluviométricas de cada estación hidrometeorológica. 
Para varias situaciones, las wavelets resultan útiles, aunque hay numerosos casos donde 
otros métodos disponibles son igualmente eficientes o incluso superiores. El paquete 
WaveletComp de RStudio permite trabajar esta metodología de una manera más rápida, 
y a su vez, ofrece opciones de trazado que facilitan un ajuste óptimo del modelo. 


Redes Neuronales Artificiales 


Dado que las redes neuronales artificiales se diseñaron intencionalmente como modelos 
conceptuales de la actividad cerebral humana, resulta útil comprender primero cómo 
funcionan las neuronas biológicas. La Figura 5 ilustra como las señales entrantes son 
recibidas por las dendritas de la célula a través de un proceso bioquímico, y su vez, 
emitiendo una señal de salida por el axón [55]. 


Señal de 
entrada 


Terminal del axón 


Señal de salida 


Dendritas 


Figura 5. Representación artística de una neurona biológica. Imagen con base en [55] 


Así, una red neuronal artificial es un modelo de regresión o clasificación en dos 
etapas, generalmente suele representarse mediante un diagrama de red, como lo 
muestra la Figura 6. 
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Figura 6. Esquema de una red neuronal con una capa oculta. Imagen con base en [56] 


Para regresión, normalmente hay una sola unidad de salida Y, en la parte superior, como 
es el caso de esta investigación (Figura 7), en donde las estaciones hidrometeorológicas 
vecinas se transforman en las dendritas de entrada, y la estación con datos faltantes es 
la variable de salida donde se generarán los nuevos datos pluviométricos. Sin embargo, 
es importante mencionar que estas redes pueden manejar múltiples respuestas 
cuantitativas de forma fluida [56]. 


Datos 
pluviométricos 
de salida 


Capa oculta 
con 3 nodos 


Información 
pluviométrica 
de estaciones 
hidrometereológicas 
? vecinas 


e 


Figura 7. Representación de una estructura de red neuronal artificial con una capa oculta de 3 nodos para 
estimación de datos pluviométricos 
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Una neurona artificial típica con n dendritas de entrada puede representarse mediante 
la Ecuación 12. Los pesos (w,) permiten que cada una de las n entradas de x contribuya 
en mayor o menor medida a la suma de las señales de entrada. El valor acumulado se 
pasa a la función de activación, f(x), y la señal resultante, y(x), es el axón de salida [57]. 


n 


y0O)=f yA W,X; (12) 
i=1 

En el presente estudio se utilizó el algoritmo de retropropagación (backpropagation), que 
es el método de entrenamiento predominante en redes neuronales, Este método de 
aprendizaje supervisado emplea el descenso del gradiente, que se divide en dos fases: en 
primer lugar, se introduce un patrón de entrada que se propaga a través de las diferentes 
capas de la red neuronal hasta generar la señal de salida. Luego, esta salida se compara 
con la salida deseada para calcular el error en cada neurona y los errores se retropropagan 
desde la capa de salida hacia todas las neuronas de las capas intermedias [58]. Cada neurona 
recibe un error que refleja su influencia en el error global de la red. A partir de este error 
recibido, se realizan ajustes en los pesos sinápticos de cada neurona. El propósito consiste 
en reducir al mínimo el error entre la salida producida por la red y la salida deseada por 
el usuario cuando se presenta un conjunto de patrones p, conocido como conjunto de 
entrenamiento. Por consiguiente, el error se distribuye en sentido opuesto al flujo normal de 
información de la red. Así, el algoritmo identifica y corrige los errores durante el proceso de 
aprendizaje, comenzando desde las capas más profundas y retrocediendo hacia la entrada. 
Para simplificar este procedimiento, se empleó el paquete neuralnet de RStudio, el cual 
facilita la implementación de este método al especificar los parámetros de entrada, como el 
número de nodos en las capas ocultas, y definir variables dependientes e independientes, 


La Figura 8 presenta un resumen del funcionamiento del algoritmo de backpropagation 
utilizado en la ejecución de redes neuronales artificiales. 


Cálculo de gradiente 
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Figura 8. Backpropagation en redes neuronales artificiales. Imagen con base en [59] 
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Métricas de evaluación 


Con el fin de determinar el método óptimo de generación de datos pluviométricos, 
se establecieron dos métricas principales: Raíz del Error Cuadrático Medio (RSME) 
y Coeficiente de Determinación (R?). La métrica RMSE es comúnmente empleada 
para evaluar la efectividad de un modelo de regresión. Su función es determinar la 
discrepancia entre dos conjuntos de datos, comparando las predicciones del modelo 
con los valores reales (Ecuación 13) [60]. 


(13) 


Donde: 


y, serie pluviométrica original 
y, serie pluviométrica estimada 


Mientras que el coeficiente de determinación proporciona información sobre el grado de 
relación entre las dos variables que explican la fluctuación de los datos (Ecuación 14) [61]. Para 
el caso de estudio, las dos variables serán los datos estimados y los datos reales. 


20 90" (14) 


R?=1 de 
LiDM=34) 


Donde: 


y serie pluviométrica original 
Y, serie pluviométrica estimada 

y; media de datos pluviométricos 

No obstante, también se aplicó la media aritmética y la desviación estándar a los conjuntos 
de datos antes y después de la simulación. 


RESULTADOS 


Con climatol se pudo visualizar el conjunto de datos de las cinco estaciones, donde los 
espacios en blanco constituyen la información pluviométrica ausente que se eliminó 
de manera aleatoria para simular las metodologías presentadas anteriormente (Figura 9). 
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Figura 9. Disponibilidad de datos pluviométricos de estaciones hidrometeorológicas 


Estaciones hidrometeorológicas 
3 


1 


Tiempo 


La Figura 10 muestra la distribución espacial de las estaciones en la zona de estudio, 
en donde climatol realizó automáticamente un clustering jerárquico para identificar 
patrones. Se observaron dos clústeres distintos, representados en el gráfico por 
estaciones marcadas en verde y estaciones marcadas en rojo. Los clústeres identificados 
en el gráfico sugieren la presencia de dos áreas geográficas distintas, cada una con 
características climáticas Únicas. 
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Figura 10. Agrupamiento de estaciones hidrometeorológicas mediante climato! 
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Los diagramas de anomalías (Figura 11) incluyen dos líneas suplementarias en la sección inferior, 
las cuales indican la mínima separación entre los datos adyacentes (en verde) y la cantidad 
de datos de referencia empleados (en naranja), ambas utilizando la escala logarítmica del 
eje derecho. El análisis de los diagramas de anomalías de precipitación acumulada mensual 
es esencial para examinar las desviaciones en los patrones de lluvia a lo largo del tiempo. 
Estos diagramas muestran claramente los periodos donde se han observado cambios 
significativos en la precipitación acumulada, destacando tanto los excesos como los déficits 
de lluvia respecto a las condiciones climáticas durante 10 años de estudio (2014-2023). 
En las cinco estaciones también se señalan con una línea vertical discontinua las posibles 
fechas de cambio tras la evaluación de la homogeneidad de la serie. 
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Figura 11. Anomalías climáticas en información pluviométrica 
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Una vez completadas las series temporales, se observaron diferencias significativas 
entre los valores originales y los datos generados, tal como se refleja en las métricas 
de evaluación (Tabla 5). El RMSE revela la magnitud promedio del error de predicción, 
evidenciando discrepancias considerables entre los valores observados y los 
generados, con RMSEs de 120.96, 69.83, 81.77, 81.04 y 69.54 para las estaciones M5028, 
M5029, M5026, M5076 y M5030, respectivamente. Ahora bien, los valores de R? fueron 
extremadamente bajos, oscilando entre 0.000 y 0.067, lo que sugiere una variabilidad 
significativa no explicada por el modelo. Al comparar las medias aritméticas de los 
datos originales con los completados, se evidenció una variación diferencial entre 
estaciones, lo que sugiere una influencia heterogénea de la estimación en la tendencia 
central de las series temporales. Por otro lado, la comparación de las desviaciones 
estándar de los datos originales y completados mostró cambios más sutiles, lo que 
indica una relativa estabilidad en la dispersión de los datos después de la aplicación 
de los métodos de estimación. 


Un 


Para la generación de datos a través de la regresión lineal múltiple (RLM), se generó 
un modelo específico para cada estación, empleando las estaciones restantes como 
variables independientes en el proceso. Ante todo, se analizó la relación estadística 
entre los datos pluviométricos de todos los conjuntos de datos. La consideración 
de esta información es fundamental para determinar los predictores óptimos del 
modelo, identificar variables con relaciones no lineales que no deben ser consideradas 
y detectar posibles problemas de multicolinealidad entre los predictores. Al mismo 
¡iempo, se sugiere complementar este análisis representando la distribución de cada 
variable a través de histogramas (Figura 12), que demuestran una forma asimétrica, 
o que sugiere que la variable de precipitación acumulada mensual no sigue una 
distribución normal. 


Los histogramas muestran una distribución levemente sesgada hacia la derecha, 
indicando una mayor frecuencia de valores de precipitación menores que la media. 
Además, los datos recopilados de las diversas estaciones en la microcuenca del río 
Pita exhiben multicolinealidad, lo que indica que varias variables están linealmente 
relacionadas entre sí. Por último, los coeficientes de Pearson superan el 0.65 en todas 
as estaciones, excepto en M5030 con M5076, lo que impide la identificación clara del 
efecto individual de cada variable sobre la variable respuesta. 
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Figura 12. Matriz de correlación de datos pluviométricos 


En la Tabla 4 se describen las ecuaciones generadas por regresión lineal múltiple para 
cada estación, cabe señalar que el valor p-value es estadísticamente significativo para 
cada modelo generado (2.2e-10), lo que sugiere que los modelos no son aleatorios y al 
menos uno de los coeficientes de regresión parciales es diferente de cero. 


Tabla 4. Ecuaciones de regresión para cada estación en la microcuenca del río Pita 


Estación Ecuación 


5028 M5028 = 2.4790 + 0.6598 M5026 + 0.6124 M5030 
5029 M5029 = —4.7318 + 0.1605 M5026 + 0.6926 M5076 + 0.1924 M5030 
5026 M5026 = 2.5013 + 0.2916 M5028 + 0.2682 M5029 + 0.4076 M5076 
5076 M5076 = 24.4884 + 0.1834 M5026 + 0.3871 M5029 
5030 M5030 = 4.4462 + 0.4821 M5028 + 0.4418 M5029 
La validación de los métodos se llevó a cabo mediante el análisis de la linealidad entre las 
variables independientes y los residuos del modelo, un aspecto clave para determinar 


la homocedasticidad. Esta condición se verifica cuando los residuos muestran una 
distribución aleatoria alrededor de cero. Los valores de RMSE fluctúan entre 19.71 
y 53.56, y el coeficiente de determinación (R?) varía entre 0.552 y 0.727 (Tabla 5). Estos 
resultados indican que los modelos explican más del 50 % de la variabilidad en los datos 
de precipitación. Además, se observa que la media aritmética se mantiene constante 
con la aplicación del modelo, mientras que la dispersión de datos disminuye, lo cual se 


refleja en una menor desviación estándar después de aplicar 


Por otro lado, la aplicación de la transformada de Wavelet posibi 
diversas series de datos mediante el empleo de herramientas ma 


19 DOI: https://doi.org/10.18272/aci.v1611.3274 


os modelos de regresión. 


itó la reconstrucción de las 
emáticas de vanguardia. La 


Artículo/Article 
Sección B/Section B 


Vol. 16, nro. 1 
e3274 


avances 
en ciencias e 
ingenierías 


20 


period 


period 


Evaluación de métodos estadísticos y matemáticos para estimar datos pluviométricos faltantes 


en la microcuenca del río Pita, Pi 
Bonilla-Cáceres 


chincha, Ecuador 
/ Palacios (2024) 


Figura 13 muestra la descomposición de wavelet de la serie temporal de datos pluviométricos 
recopilados durante el período de estudio utilizando la función wt.mage de la librería 
WaveletComp en RStudio. Esta imagen resultante presenta una representación visual de la 
distribución de energía en diferentes escalas temporales, destacando patrones y estructuras 
cos. El eje horizontal representa el 


de variabilidad multiescalar en 
tiempo (10 años), mientras que 
se pueden identificar visualmen 
mismas áreas de la Figura 11 de an 
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temporales 
a dinámica 
ojo intenso 
or líneas de 


contorno blancas representan componentes periódicos significativos en la serie temporal. 


Se observan patrones mensuales que reflejan el com 


portamiento de la preci 


pitación en 


diferentes periodos de tiempo, como las temporadas de invierno en la región de la sierra, 
que generalmente abarcan los primeros meses del año, desde enero hasta mayo. 
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La Figura 14 muestra la reconstrucción de la serie temporal de datos pluviométricos mediante 
a aplicación de la función reconstruct. Esta visualización representa la serie temporal 
reconstruida a partir de la descomposición de la wavelet previamente realizada. Los nuevos 
datos pluviométricos estimados se ilustran en color rojo, mientras que de color negro está 
a serie de datos originales. La reconstrucción resalta 
fica una tendencia a la baja en la mayoría de estaciones, 


as tendencias temporales, donde al 


a en la microcuenca. Igualmente, los 
a Cantidad de precipitación durante 


diferentes periodos anuales, mientras que las variaciones multiescalares presentes en los 
datos pluviométricos ofrecen la presencia de ciclos climáticos de diferente duración, como 


en el caso de eventos climáticos ex 
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Figura 14. Reconstrucción de series temporales 
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Los resultados del método (Tabla 5) muestran una amplia variabilidad en los valores de 
RMSE, que oscilan entre 56.24 y 118.96. Además, los valores de R? varían entre 0.012 
y 0.253. Antes de la implementación de los métodos de rellenado, se evidencia una 
cierta inestabilidad en los datos originales, reflejada en una amplia gama de valores 
para la media aritmética y la desviación estándar, que van desde 67.30 hasta 113.05 
y desde 44.22 hasta 81.04, respectivamente. Sin embargo, después de la aplicación 
de los modelos de transformada de wavelet, se observa una mejora en la estabilidad 
de los datos, con una reducción en la dispersión y una ligera ajuste en la media 
aritmética, que varía entre 61.48 y 101.93, y en la desviación estándar, que fluctúa 
entre 47.97 y 77.65. 


Para la implementación del método de redes neuronales artificiales, se utilizó la 
librería neuralnet, la cual permitió configurar arquitecturas de red con dos capas 
ocultas para cada modelo asociado a las estaciones de estudio, compuestas por 5 y 
3 nodos respectivamente. Después de probar varias configuraciones, se determinó 
que aumentar el número de nodos conlleva a mayores exigencias computacionales, 
mientras que reducir el número de nodos resulta en un incremento de errores. Para 
el entrenamiento de estos modelos, se asignó aleatoriamente el 70 % de los datos 
como conjunto de entrenamiento y el 30 % restante como conjunto de prueba. La 
visualización de los modelos generados por las redes neuronales para cada estación, 
junto con su correspondiente evaluación de errores y etapas de procesamiento, se 
presenta en la Figura 15. 
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Figura 15. Redes neuronales artificiales por retropropagación 


En los resultados del modelo de redes neuronales al rellenar datos pluviométricos, el 
error cuadrático medio (RMSE) muestra una variabilidad entre 1.56 y 3.41, lo que indica 
diferencias en la exactitud de las estimaciones en relación con los valores observados. 
Esta variación está asociada con factores geográficos y climáticos específicos de 
cada estación. Por otro lado, el R? revela la capacidad de los modelos para explicar la 
variabilidad en los datos de precipitación, con valores que oscilan entre 0.643 y 0.805. Esto 
sugiere diferencias en la capacidad predictiva de las redes neuronales en cada estación, 
posiblemente relacionadas con la complejidad de los patrones de precipitación locales. 
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Además, al examinar los cambios en la media aritmética y la desviación estándar antes y 

después de aplicar el método, se observa una estabilización general o una ligera mejora 
avances enla precisión de los datos estimados, indicando una mayor consistencia y fiabilidad en 
RE las predicciones generadas por las redes neuronales artificiales. 


Tabla 5. Evaluación de métodos de generación de datos pluviométricos 


Paulhus y Kohler 


Métrica de evaluación M5028 M5029 M5026 M5076 M5030 


RMSE 120.96 69.83 81.77 81.04 69.54 
R2 0.026 0.009 0.002 0.000 0.067 
Media aritmética antes 113.05 13:25 82.23 68.03 91.31 
Media aritmética después 102.95 80.51 86.16 75.60 96.61 
Desviación estándar antes 81.04 44.22 51.12 30.84 65.82 
Desviación estándar después 73.95 45.42 5028 40.07 66.18 


Regresión lineal múltiple 


Métrica de evaluación M5028 M5029 M5026 


RMSE 53.56 26.09 32.67 19.71 25.13 
R2 0.672 0.600 0.552 0.727 0.719 
Media aritmética antes 113.05 73.25 82.23 68.03 91.31 
Media aritmética después 112.27 74.93 83.76 67.99 91.71 
Desviación estándar antes 81.04 44.22 51.12 30.84 65.82 
Desviación estándar después 76.94 43.44 50.03 28.66 65.32 


Transformada de Wavelet 


Métrica de evaluación M5028 M5029 M5026 


RMSE 118.96 56.24 94.18 60.75 87.80 
R2 0.024 0.074 0.207 0.012 0,253 
Media aritmética antes 113.05 73.25 82.23 68.03 91.31 
Media aritmética después 101.93 67.30 76.28 61.48 93.64 
Desviación estándar antes 81.04 44.22 51.12 30.84 65.82 
Desviación estándar después 77.65 47.97 55.63 34.83 66.09 


Redes neuronales artificiales 


Métrica de evaluación M5028 M5029 M5026 


RMSE 2.14 2.78 1.89 3.41 1.56 
R2 0.671 0.782 0.805 0.764 0.043 
Media aritmética antes 113.05 73.25 82.23 68.03 91.31 
Media aritmética después 114,15 75.20 81.79 67.32 90.58 
Desviación estándar antes 81.04 44.22 51.12 30.84 65.82 
Desviación estándar después 82.76 44.69 49.67 28.45 64.02 
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DISCUSIÓN 


La precipitación es un fenómeno ampliamente reconocido como un proceso complejo y 
no lineal [62]. Esta complejidad se refleja en los altos valores de la raíz del error cuadrático 
medio y bajos valores del coeficiente de correlación obtenidos mediante el método de 
Paulhus y Kohler, así como en el análisis realizado mediante la transformada de Wavelet. 
A pesar de las ambigúedades observadas en la implementación de estas metodologías, 
el uso de herramientas computacionales, como la herramienta climato!, ha demostrado 
ofrecer ventajas significativas. Esta herramienta no solo facilita el rellenado de datos 
faltantes, sino que también permite la homogeneización de las series temporales. 
De hecho, investigaciones previas, como la de Cartaya et al. [63], han empleado esta 
herramienta con el fin de homogenizar datos meteorológicos, obteniendo series 
temporales de mejor calidad. Esta práctica se justifica debido a las posibles discrepancias 
en la recopilación de datos mediante equipos meteorológicos, lo que puede afectar la 
fiabilidad estadística de los resultados obtenidos. 


Asimismo, el clustering jerarquizado de la región de interés proporciona una explicación 
para ciertas discrepancias y errores en la generación de datos. Sin embargo, Poblete et al. 
[64] afirman que el enfoque jerárquico utilizado en la formación de los grupos presenta 
una limitación al generar combinaciones iniciales no deseables que pueden persistir 
durante el análisis, lo que podría resultar en interpretaciones incorrectas. Para garantizar 
una mayor confianza en los resultados del análisis de agrupamiento, se requiere realizar 
múltiples aplicaciones bajo diferentes condiciones, considerando estaciones atípicas 
como candidatas a revisión, y recalculando los grupos o utilizando diversas medidas 
de similitud y otros métodos de agrupación [65]. Entonces, se ha demostrado la nula 
eficacia del método de Paulhus y Kohler para precipitaciones acumuladas mensuales 
para la presente investigación, sin embargo, en el estudio de Pinthong et al. [19] este 
método demuestra tener una alta capacidad de generación de datos pluviométricos 
cuando la escala temporal es diaria, debido a que los errores generados en el recalculo 
de precipitaciones son más pequeños al tomar tiempos más cortos [66]. 


Además, la transformada de Wavelet mostró limitaciones en la estimación de datos 
faltantes, lo cual puede atribuirse a la longitud y la naturaleza aleatoria de la serie 
temporal. Este desafío se acentúa en estaciones recientes, porque la cantidad de datos 
disponibles es insuficiente. Idealmente, esta técnica se desempeña mejor en bases 
de datos con más de 30 años, donde la significancia estadística es más sólida [67]. A 
pesar de eso, la transformada Wavelet ofrece descomposiciones valiosas de las series de 
tiempo originales, lo que permite que los datos transformados en wavelet enriquezcan 
la Capacidad de un modelo de pronóstico al capturar información relevante en varios 
niveles de resolución. Se ha observado que esta metodología parece ser más efectiva 
que la transformada de Fourier en el tratamiento de series de tiempo no estacionarias, 
según estudio previo de Salazar [68]. También, Sifuzzaman et al. [69] mencionan que 
una de las principales ventajas de la transformada de Wavelet es su robustez, dado que 
excluye cualquier sospecha errónea o procedimiento de prueba paramétrica. 


Añadido a eso, la regresión lineal múltiple (RLM) presentó una óptima correlación de 
datos generados. Cabe destacar que, al estar en una misma microcuenca, las estaciones 
actúan de manera similar, por lo que su papel como variables independientes es muy 
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utilizada. Sin embargo, es importante considerar la distribución normal de los datos 
modelados, requisito que no suele cumplirse al trabajar con precipitaciones acumuladas 
mensuales. Sin este requisito la validación y confiabilidad del modelo son nulas, al ser 
un modelo multivariado. Alfaro y Pacheco [70] observaron que este método muestra 
mejoras notables en comparación con los enfoques que dependen únicamente de 
la información de una estación. A pesar de ello, según Toro et al. [1], se desaconseja 
la aplicación de métodos de regresión cuando los coeficientes de determinación son 
inferiores a 0.8. Dado que en este estudio dichos coeficientes están por debajo, se 
sugiere optar por otro método. 


Finalmente, las redes neuronales artificiales representan una estrategia efectiva para 
estimar la precipitación pluviométrica con mayor precisión, esto es corroborado por la 
alta correlación entre valores reales y valores simulados, y sus bajos valores de error. 


Según Tealab et al. [71], en los últimos años ha habido un crecimiento notable en el 
interés y la investigación en torno al uso de redes neuronales, lo que ha generado un 
cuerpo creciente de literatura científica sobre este tema. Este aumento en la atención 
académica ha resultado en una diversidad de opiniones entre los investigadores, con 
algunos respaldando entusiastamente el potencial de las redes neuronales y otros 
señalando sus limitaciones [72]. En el estudio de Baño y Gutiérrez [73] mencionan que la 
incorporación de un predictor adicional podría potencialmente mejorar los resultados 
obtenidos. Sin embargo, su aplicación podría desaconsejarse en la elaboración de 
proyecciones climáticas a largo plazo, dado que algunas variables son altamente 
parametrizables. Mientras que una limitación podría surgir de la estructura multicapa 
seleccionada para las redes neuronales artificiales, la cual podría resultar insuficiente 
en términos del número de capas ocultas. Incrementar su complejidad podría facilitar 
que el método capture un aprendizaje más profundo de las relaciones físicas entre las 
variables predictoras y la variable objetivo. 


CONCLUSIONES 


Tras evaluar diversos métodos estadísticos y matemáticos para rellenar datos 
pluviométricos en la microcuenca del río Pita, se observó que las redes neuronales 
artificiales sobresalieron como el método más efectivo. Estas redes demostraron una 
alta capacidad de generación de datos pluviométricos, con coeficientes de correlación 
superiores a 0.6 y una proximidad cercana entre los datos observados y los datos 
simulados, lo que indica un ajuste adecuado sin caer en sobreajuste. Además, se 
evidenció que el método de Paulhus y Kohler y la transformada de Wavelet presentaron 
desempeños menos satisfactorios. Se destaca que la longitud de los datos de entrada, 
que abarcan 10 años de registros mensuales (120 datos en total), tuvo un impacto 
significativo en la calidad de la transformada de Wavelet, lo que sugiere que la cantidad 
de datos puede influir en la captura y representación de variaciones temporales en los 
datos. Adicionalmente, la resolución temporal de la información debe considerarse, ya 
que se ha observado que los datos con resolución mensual pueden limitar la eficiencia. 
Por otro lado, la regresión lineal múltiple también mostró estimaciones prometedoras, 
especialmente al considerar la naturaleza multivariada del modelo. 
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El estudio de generación de datos pluviométricos resalta una brecha en la investigación, 
particularmente en áreas propensas a sequías e inundaciones recurrentes, subrayando 
la necesidad de abordar esta problemática a nivel de cuenca o microcuenca hidrográfica 
para mantener información precisa y actualizada, esencial para la gestión del agua y 
la mitigación de desastres naturales. Se propone también la generalización de las 
metodologías desarrolladas en este estudio para su aplicación en otras áreas geográficas, 
especialmente en zonas de páramo, verificando valores de pluviosidad altos, como es 
el caso de la microcuenca del río Pita. Esto implica adaptar los modelos y técnicas a las 
particularidades de cada microcuenca, abordando así la escasez de datos pluviométricos 
y fortaleciendo la capacidad de respuesta ante eventos climáticos extremos. 
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